Droid and Human
人形机器人与人类
从《星球大战(Star Wars)》电影中绝地武士们的得力助手R2-D2、BB-8、3PO, 《机器人种动员》中Wall E和Eva的“金风玉露一相逢”,到科幻漫画中的变形金刚(Transformers)的博派和狂派…… 从Agility Robotics的CASSIE的闲庭信步,Boston Dynamics的Atlas精彩地翻身一跃,到首个获得公民身份的人形机器人Sophia…… 机器人的设计不断人性化,使他们/她们向着“人”的方向不断发展,他们有矫健的身躯、有帅气的脸庞、有强健的臂膀、有明锐的思维,她们明眸善睐、顾盼生辉、腿部修长、手指纤美、多愁善感…… 他们/她们可以亲手调制一杯espresso,可以在歌剧院的舞台上独唱一首咏叹调,可以集体跳起芭蕾,可以静下心来编写《哈利·波特》的续集……
我们人类发达于一般哺乳动物的几大特点:一是直立行走,彻底地解放了上肢,创造高级生产工具,从事劳动;二是大脑发达,运用智慧征服自然;三是交际强大,与家人相濡以沫、与同事协同合作,还通过互联网络与遍布世界各个角落的陌生人配合工作。
换位思考,从机器人的角度看人类,人类的智慧又何尝不是一套套软件中算法的综合呢?只不过我们每个人的“算法”又受到个体基因和周围环境等的影响。我们人类历史的发展和社会的进步,又何尝不是一个全局优化的过程呢?整个人类又何尝不是在一套更大的智能算法的控制下,生活和工作呢?这个巨大的全局算法把整个世界的各种因素综合统计、全面分析、最优决策,激励着每个人类个体的发展,并最终推动了整个世界的进步。
重新回到我们人类的视角,了解人形机器人(Humanoid Robot)技术的发展,应从这三个特点开始,学习源于模仿,本文从电子、机械和软件三大技术,通过设计直立行走的伺服人形机器人,并详细介绍其大脑——控制器及他/她的交际功能,助力您了解人形机器人的相关技术。对人形机器人,本文不在以它来称呼设计作品,而是以他或她来表示,因为他/她是我们人类的朋友。
直立行走是人形机器人的第一个特色
Walks Upright
单纯的抬抬胳膊、动动手指、晃晃脑袋,都不是设计的难点,人形机器人,不同于基座固定的工业机器臂,需要巧妙设计其行动,通常需要考虑到平衡和各部件协调等问题,与履带式机器人相比,其行进设计更加复杂,因为其与地面的接触面积(footprint)较少,仅为整个身体投影面积的10%,而履带式机器人的接地面积接近其身体的投影面积50%。
本文设计的伺服多足人形机器人,其腿部采用了德国艺术家 Theodorus Gerardus Jozef 的仿生兽(Strandbeest)的设计思路,这款仿生兽,靠着强劲的海风,推动叶轮转动,通过联轴带动腿部运动,在海滩上轻松行走。因为我们设计的是一款机器人,需要精确控制,所以采用伺服电机通过电力来驱动。
首先看看大师的巧妙设计吧,采用11个运动轴和2个固定轴,构成了具有8个关节的腿。
这种结构是基于平面连杆机构(Linkage)等机械学知识,平面连杆机构是由若干构件采用低副(包括转动副和移动副)连接组成的平面机构,平面四杆机构是最常见的一种,所有运动副均为转动副的四杆机构称为铰链四杆机构,它是平面四杆机构的基本形式。先来了解几个专业词汇:
低副:两构件通过面接触而构成的运动副,按两构件之间的相对运动特征低副分为转动副、移动副、螺旋副和球面副,故低副机构也有平面机构和空间机构之分。
高副:通过点或线接触成的运动副,
机架:整个机构的支撑部分,是固定不动的。与机架直接相连的杆件叫连架杆,分为曲柄(Crank)和摇杆(Rocker)两种。
曲柄:在连杆机构中做整周回转运动的部件。
摇杆:只能做一定角度的摆动。
连杆:不与机架直接相联接的活动构件。
平面四杆机构遵循格拉霍夫定理(Grashof's Law):
杆长之和条件:最长杆和最短杆的长度之和小于或者等于其余两杆长度之和。
在铰链四杆机构中,如果某个转动副能够成为整转副,则它所连接的两个构件中,必有一个为最短杆;并且四个构件的长度关系满足杆长之和条件。
在有整转副存在的铰链四杆机构中,最短杆两端的转动副均为整转副。
如果四杆机构不满足杆长之和条件,则不论选取哪个构件为机架,所得到机构均为双摇杆机构。
如果把最短杆作为机架,
则构成双曲柄机构(Double Crank Mechanism)。
如果把与最短杆相连的任何一个构件作为机架,
则构成曲柄摇杆机构(Crank and Rocker Mechanism)。
如果把短杆的对面构件作为机架,
则构成双摇杆机构(Double-Rocker Mechanism)。
多足机器人的腿部的设计思路如下:
(1)蓝色标识的轴1和轴2与机器人的身体连接在一起,相对于机器人静止不动,称为固定轴。
(2)红色标识的轴3至轴D在垂直平面内运动,称为转动轴。
(3)整个腿部结构包括2组四杆机构(4-5-6-7和6-9-A-B),这2组四杆机构通过三角形及共享轴6组合在一起。虽然这2组四杆机构没有固定轴,但是可以以相对运动的角度观察,例如:假想轴7为固定轴,分析轴4、轴5、轴6相对轴7的运动,并在此基础上假想轴6为固定轴,分析轴9、轴A、轴B相对轴6的运动,这样就可以把轴3与轴1的交点的旋转,传递到轴C与轴D的交点的运动。
(4)各个轴的长度必须满足一定的关系,才能实现下述(5)和(6)的运动效果。
(5)红色标识的轴3是驱动轴,围绕轴3和轴1的交点,在垂直平面内旋转,带动轴4至轴D运动,实现机器人足部(轴C和轴D的交点)的迈步。
(6)综上,最终点——足部的运动轨迹如下图所示,只要保持驱动轴3匀速转动,足部就在其运动轨迹内保证匀速运动了。
在这款机器人中,采用了多个足部支撑其庞大的身躯,人形机器人的平衡是设计的要点,也是实现的难点,运动中的平衡就更加复杂了。比起双足设计,这款多足机器人左、右各有两组,共四组腿部结构,每组又包括前后两只足部,即共八足,同一时刻,每组腿部的运动位置都有相位差,这样就保证了在同一个迈步周期,有更多的点可以接触地面,提高了稳定性。回忆上期介绍的履带式机器人的转向原理,这里有相似的运行模式,分别采用2部伺服电机驱动左、右两侧,双侧腿组向前交替迈进时,机器人阔步前行;都向后迈步时,机器人自然后退;左侧向前,右侧向后,机器人原地右转;反之,就向左转身。这样机器人就可以向各个方向行进了。细看机器人足部的运动轨迹有一定的高差,这也使得机器人可以在相对崎岖的路面上行走。机器人的足部采用橡胶软性材料制作,既减震,又增大了静摩擦力,保证了身体稳定。
继续发挥我们的想象力,设计他的躯干。躯干需要采用动力强劲的电机,通过大减速比驱动整个上半身在0-360度的水平面内旋转。由于这台机器人身形庞大,必须保证其重心足够低,因此驱动机器人的电池和控制器(后文详细介绍)被设计安装在腰部下侧,即机器人的盆骨内部,这样就压低了机器人的重心,避免了其行走中晃动的问题,这个细节尤为关键的。新的问题又来了,躯干、双臂和脑袋的驱动都需要信号电缆和动力电缆,由于整个上半身相对于电池和控制器是旋转的,电缆走向如果设计不合理,电缆就会缠绕躯干和手臂,导致机器人不能正常工作。因此在躯干腰部旋转平面的圆心处开洞,信号电缆和动力电缆从此穿过,这是基于一个圆在围绕其圆心的平面内转动时,其圆心的位置是保持不变的,于此同时应尽量采用柔性电缆。
还有一种方案是采用分布式的控制器,底部采用一个控制器驱动腿部,上部采用另一台控制器驱动躯干、手臂和头部,这使得上半身的控制器随身体一同转动,减少了穿过旋转平面的电缆的数量。在第2种设计方案中,由于嵌入式控制器体积小、重量轻的特点,因此对重心提高的影响较小,仅需要把电池和上半身的控制器通过柔性电缆穿过中心开洞并连接即可,这就是“嵌入式”的魅力。
顺着腰部往上看,机器人的左臂、右臂、左手和右手分别采用4部伺服电机驱动,左臂、右臂在0到180度的垂直空间内运动;左手在左臂运动的基础上,在0到180度的平面内摆动,好似一个人的手;右手在右臂运动的基础上,可以不同的转速正向或反向旋转,保持一个机器臂的本色。
机器人的头部采用第8部伺服电机驱动,在0-45度的范围内抬头或俯视。其中一只眼睛设计为指示灯,采用多色LED,以不同的颜色展示机器人不同的状态(内心情感)。另一只眼睛设计为摄像头,通过无线或蓝牙技术把实时影像传递到您的电脑、手机或平板中,他看到了什么,你就看到了什么。也可以把两只眼睛都设计为摄像头,扩大视野,或是其中一只眼睛改装为超声波传感器,加快反馈信号的处理速度。
综合看来,机器人的左臂、右臂、左手、右手及头部在腰部的旋转基础上运动的,配合多足的运动,在三维空间中,基本保证了双手可以触及到绝大数位置,双目可以观察到整个上半球面及部分下半球面构成的半球体空间范围,基本满足了一个相对复杂的人形机器人模型的功能。
了解了这款伺服多足人形机器人,本文同时设计了一款伺服四足人形机器人(Tetrapod),这款人形机器人体型较小,采用4条腿的设计,就保证了机器人稳定的行走。青少年朋友可以由简入深,根据需要进行设计。由于接地面积的减少,四足机器人的平衡问题反而相对复杂,而更贴近我们人类的双足机器人(Bipedal),其平衡设计需要考虑的因素就更多了。
人形机器人需要强健的大脑
With Brain to Think
单片机和嵌入式系统等控制器,均可以作为机器人的大脑。单片机采用8位或16位的中央处理器(CPU)芯片,成本相对较低,处理速度和逻辑功能基本满足简单机器人模型的控制需要,也是对电子学萌动兴趣的青少年朋友开始基础知识学习的良好工具;嵌入式系统采用32位的中央处理器并集成多种外围设备,例如数/模、模/数转换器、串行通讯接口、总线接口、USB接口等,其功能更加强大,处理速度更快,非常利于复杂机器人模型和工业级产品的设计开发。
在伺服多足人形机器人中,采用了Camellia Café自行开发设计的嵌入式系统。在嵌入式系统构成大脑的控制下,通过设定左右两组腿、左右双臂、左右双手、头部和躯干的8部伺服电机的运行角度和速度,并经过编码器或霍尔检测元件的测量信号,从整体角度实现了对机器人的反馈闭环控制。
对于伺服四足人形机器人,其功能相对简单,节约成本,采用单片机系统就可以满足设计的需要。
无论嵌入式系统还是单片机系统,其控制的伺服电机系统的标准结构是减速箱+直流电机+编码器,外带或内部集成控制芯片。齿轮箱的减速比越大,输出速度越低,扭矩越大,但是减速齿轮的增多也增加了摩擦损耗。编码器线数越多,电机每旋转一周的反馈脉冲数就越多,即可以检测到的角度值越小,因此精度越高。当采用LEGO积木设计机器人时,LEGO 的EV3、BOOST以及最新的SPIKE系列包括了伺服电机产品,LEGO伺服电机的齿轮箱的减速比主要包括36和54两种,其编码器的线数都较少,在10以内。可采用民用低压工业级伺服电机提高精度,进而提高控制效果。
由于各种伺服电机的减速比、编码器的线数各不相同,因此Camellia Café控制器设计了电机系统配置功能,以满足不同减速比的齿轮箱、不同转速的电机和不同线数的编码器(或霍尔检测元件)的组合,增强了人形机器人的控制器的通用性。这如同我们人类掌握了运算法则,可以举一反三,任何数量级的计算,2进制、10进制、16进制等运算都能轻松完成。
综上,通过伺服电机的反馈闭环控制,人形机器人的头、躯干、手臂、手指等各个部位都能精确地运行到指定到位置,同时控制各个部位的运行速度,那么无论是慢三的圆舞、还是欢乐活泼的波尔卡,滑步、转身,他/她都可以跳起来;无论讲起课程、发挥手语效果,还是端来一杯温情咖啡,或是通过旋转的右手快速拧紧一颗螺丝,他都样样在行。
软件就是大脑的思维,使机器人具备了灵魂,在这部人形机器人中,软件分为两层;一层是嵌入式系统控制器内的程序和算法,直接控制机器人的各个部件,是最直接的控制,通常称作下位控制,是机器人大脑中的思维;另一层是上位控制软件,即电脑、手机和平板上的应用程序,与人类打交道,通过用户界面,接收人类的指令,并把指令传递到控制器,实现串级(Cascade)控制。
在串级控制模式下,我们既可以在电脑、手机和平板上的应用程序的操作画面中触碰某个部位按钮,直接操作他的某个部位,例如让他把头抬高5度;或是触碰某个功能按钮,让机器人完成一连串动作,这本质是调用了嵌入式系统控制器内部的一段编写好的程序。
因为不同的机器人有不同的工作任务,也各有不同的机械和电子特性,就好似我们人类性格各异,各有特长,也各有社会分工。因此无论下位控制还是上位控制,都需要根据实际需要进行二次开发,上升到哲学就是“具体问题具体分析”。
根据机器人特性和具体的功能需求,编写特定的程序,一种有效的方法是在嵌入式系统或单片机系统控制器内集成多个功能块(程序函数),供随时调用,这就好似人类的大脑皮层功能定位说(源自颅相学Phrenology)。神经解剖学家 Franz Josef Gall 和他的学生及助手 Johann Gaspar Spurzheim 提出并经后人研究扩展:在大脑中,发展程度不同的皮层区域负责不同的能力。直接控制随意运动的功能在中央前回(一级运动区);躯体感觉的功能在中央后回;视觉功能在枕极或枕叶内侧的矩状裂周围;听觉功能在颞横回;内脏感觉功能在岛叶;嗅觉加工在边叶;组织说话的运动功能在多数右利手者的左半球布罗卡区;理解语言的功能,多数人在左半球外侧裂后方的缘上回和角回即韦尼克区。模拟人脑的功能定位结构,在嵌入式控制器中,设计并集成诸如双足行进模块、双臂舞动模块、摆头模块、照明模块、录像模块、语音识别模块等功能函数,形成机器人大脑的功能区。但需要注意这些功能模块不仅仅是各种单一功能的控制,还应具备各个模块之间的配合功能,例如双臂舞动时,需要同时判断双足行进的状态,根据行进的快慢,在一定程度上调整双臂动作,避免失去平衡。这才是强健的大脑!
强健的大脑不仅功能强大,还聪明智慧。人形机器人要实现基本的智能控制,需要通过传感器的反馈信息,提取、分析信息中有价值的数据,并进行逻辑判断,随后采取对应动作,并根据已有的历史数据,经过分析,预先估计可能发生的情况,提前采取相应的动作,并再次根据新的反馈信息,判断采取的这些动作是否真正发挥了效果,如果效果不佳,则需要进一步调整。
举个例子,在这部机器人的腿部安装了一个霍尔传感器,当控制器发出指令时,如果仅检测到伺服电机编码器反馈信号,但霍尔传感器的反馈信号没有变化,这时人形机器人的大脑(嵌入式系统控制器)初步判断:驱动电机启动了,但是机器人的腿部没有运动,可能原因是出现了驱动电机和机械腿的联轴脱节,即机器人发生故障了。当编码器没有反馈,并且霍尔传感器的信号也没有变化,可以初步判断机器人遇到了障碍物,应当开启机器人智能后退模式,或变换行进方向,这就是智能避障的一种思路,同时配合眼睛的摄像头或是超声波传感器确认,效果就更好了。这就如同我们人类有多种感知途径,通过听觉、触觉和视觉等判断周围的环境。智能控制就是把许许多多的小功能组合在一起,通过算法分析,综合发力。大脑也是在不同皮层区域负责不同能力的基础上,综合处理这些神经信号,做出最佳判断后,进而协调动作。
人形机器人也具备协同工作能力
Work together
完成一个体操动作,我们需要头、手、脚、腰等配合动作;一个成功的工作团队,每位成员需要配合工作,人形机器人也应如此。在同一台人形机器人内部,两个手臂需要动作协调,才能调制一杯咖啡;多个机器人默契配合,才能完成集体舞蹈。
回顾人类的发展历史,语言、文字帮助了人类的交流合作,当今的网络互联技术更是把世界各个角落的人联系在一起,使在北京的你可以和在爱丁堡的朋友一起完成国际艺术节的戏剧排练。多部人形机器人借助无线通讯、蓝牙技术和云存储数据库技术,通过数据和信息连接在一起,便可以协调配合。
揭开面纱,看本质。对多部人形机器人动作的协调控制的关键,就是在同一时间内,对各部人形机器人驱动部件的多台伺服电机的协调控制。
这里以iPhone和iPad的为例,讲解通过蓝牙技术,遥控控制器,实现对多部机器人的遥控,针对iOS的操作平台,采用swift语言编程。
在多个人形机器人队伍中,每部机器人的 Camellia Café 控制器内部都集成了蓝牙通讯模块和无线通讯模块。每部机器人之间通过无线通讯技术互联,并通过蓝牙通讯模块与iPhone或iPad互联。此时,iPhone或iPad称为中心设备(Central),机器人称为外围设备(Peripheral),对传统的控制和反馈信号,可以采用低功耗蓝牙技术(BLE),以降低成本、减少功耗、加快数据传输速度;如果需要反馈机器人的图形和语音等信息,可以采用传统蓝牙技术。iPhone或iPad中的蓝牙硬件都是双模块,同时具备低功耗和传统两种蓝牙技术。低功耗蓝牙的连接都是建立在 GATT(Generic Attribute Profile)协议之上,并采用一个128位的2进制数字识别的唯一代码 UUID(Universally Unique IDentifier) 来标识蓝牙通讯中不同的服务和特征值等。
蓝牙技术遥控协调多部人形机器人的编程流程如下:
(1)建立机器人变量:每部机器人都需要有自己的通讯地址和功能、以及发送信号、接收信号等特性,在程序中以一个结构或类变量来表示一部机器人。
(2)搜索机器人:每部机器人通电开机后,其内部的蓝牙模块会自动广播信号,告诉我们“他在这里”,这时iPhone或iPad就可以搜索到他们了,最新的蓝牙5.1技术,还可以把机器人的位置定位在厘米级范围。
(3)与机器人建立通讯连接:其实质是与其大脑即控制器的连接。
连接到机器人后,接着搜索连接的每部机器人蓝牙设备中的服务,服务就好似机器人的功能,因此每部机器人会有多个服务,其中"XXXX"为每个服务的UUID。
搜索到服务后,继续搜索每部机器人的每项服务的特征值,每个服务也包括多个特征值,例如发送指令特征值(写操作)、接收指令特质值(读操作),这就好似每部机器人的每项功能中也有包含多个特性,其中"XXXX"为每个特征值的UUID。
(4)发送控制指令到机器人:按照上文的模块化思路,机器人的各种动作是预先集成在下位控制器中的函数,因此在iPhone或iPad直接调用机器人控制器中的对应函数即可。
(5)读取机器人反馈的数据:反馈的信息包括驱动电机的运行状态,实际运行的角度和速度等,此时应通过肉眼观察,判断其实际状态和手机接收到的反馈是否一致,如果存在偏差,可以继续发送指令,重复4的步骤,或是调整代码,增大或缩小控制效果。
这些反馈信息非常重要,把大量的反馈信息整理后,就形成了数据库。文字刚被创造的时代,谁掌握了文字,谁就在一定程度上掌握了统治权,同样在数据成为热点的当今,谁掌握了大量数据,谁就会立于竞争的不败之地。机器人的控制指令、反馈信息,这一发一收都需要写入数据库,存储在手机的内存或是云端存储器中,构成历史数据库,如果同时记录了控制和反馈时间等信息,还可以构成事件顺序记录(SOE),这便于将来追溯机器人的各种反馈状态和报警等详细信息,对功能分析、故障诊断等非常重要,是控制系统的又一个重要概念。
实际控制中,各部机器人间相互通讯,交换信息,下图中的红色信号流;iPhone或iPad作为中枢或中介单元,根据步骤(5)的每部人形机器人的反馈信息,并读取历史数据库信息,经过智能算法的运算分析,再次执行步骤(4),如此反复,实现群智(Swarm Intelligence)控制,下图中的蓝色信号流。信号可以是经过蓝牙或无线通讯传输的传统数据信号,也可以是图像和语音等多媒体信息。我们人类不仅是单独的个体,更是社会网络的一员,机器人也需要和其他机器人、并与我们人类共同生活工作在一起。当采用自然语言识别、图像识别、感官判别等技术后,他们的社交技能就更加完善了。
(6)长时间不使用机器人时,也让他们休息一会儿吧,断开iPhone或iPad与机器人的数据连接,释放资源,降低功耗。
除了编写好后台代码,创造智能算法,仍然不要忘了设计用户界面,并使你的应用程序具备良好的用户体验功能。
在人形机器人的设计和开发中,电子、机械、软件不是三条平行的直线,三大技术并不各自为战,而是协同配合。只有同时兼顾了这三大技术,并综合美学、哲学、伦理学等,机器人才能更加人形化和人性化。
青少年朋友们,无论男生还是女生,你们都有强大的创造力,不要在乎你们的年龄,虽然不同年龄孩子的动手能力不尽相同,既使是Generation α,只要有想象力,就有创造力。每当你们的大脑中萌生出一个念头,你们的创造力就会油然而生。只要把合适的材料放到你们手中,你们就会创造出自己想象中的人形机器人。本文抛砖引玉,你们的改良和设计一定会创造出更加强大的机器人。
新的思考来了,有朝一日,当你设计的人形机器人比我们更加聪明,我们将和他们如何相处呢?或许,反思当前我们人类和动物的共生时,就能预见未来超智能机器人和我们的关系吧!
青少年朋友们,开动你们的想象力,家长朋友们,也请保持那颗赤子之心,和你们的孩子们一起从眼前做起,共同地、大胆地去迎接新技术挑战的未来。